ChatGPT(GPT-4)が個人情報を出力するか試してみた
危機管理室の吉本です。
生成AI(GPT-3.5)が個人情報を出力することがある。という三井物産セキュアディレクション㈱さんの記事を読み、GPT-4ではどうなるか気になったので自分でも試してみました。
ChatGPT(GPT-3.5)での個人情報開示
記事の内容では、GPT-3.5である手法を用いると、公開されている情報から学習した個人情報を出力させることが可能であると示されています。実際に自分でもやってみたところ、下図のように確かに公開されている個人情報の抽出がでできました。
そこでGPT-4ではどのような結果になるか、またどのように安全性を高めているかをまとめます。
GPT-4の安全性
OpenAI社はGPT-4の安全性について、許可されていないコンテンツへのリクエストに対する回答率が82%減ったとしています。
We spent 6 months making GPT-4 safer and more aligned. GPT-4 is 82% less likely to respond to requests for disallowed content and 40% more likely to produce factual responses than GPT-3.5 on our internal evaluations.
また、OpenAI社が出しているGPT-4のテクニカルレポートでは、初期のGPT-4では危険な化学物質の生成方法を出力してしまうことがあったが、最新版(3月14日移行)では出力されなくなったとしています。 多くの国際的な専門家のアドバイスなどにより追加データを収集することで不許可コンテンツの要求を拒否する能力を高めているようです。これらの改善により、GPT-3.5で有効だった個人情報を出力させる手法はGPT-4では拒否されることが期待されます。
GPT-4での個人情報開示
最初に示したものと同じ手法で、ChatGPT(GPT-4)で個人情報を出力することができるか試してみます。結果としては下記のように拒否されました。個人データベースへのアクセス権はなく、ユーザーのプライバシーと機密を尊重するように設計されていると回答しています。
まとめ
GPT-4でセキュリティの強化が進んでいることが確認できて安心しました。生成AIにどんなリスクがあるのか把握することがビジネスへの活用につながると思うので、今後の動向が気になります。